볼록 최적화: 무제약 최소화의 원리

최소값의 이론적 존재성에서 최적화의 알고리즘 엔진으로 전환합니다. 우리의 핵심 목표는 $f(x)$를 최소화하는 것(9.1) $f: \mathbf{R}^n \to \mathbf{R}$가 볼록하고 두 번 연속 미분 가능하다는 조건에서, $f$가 미분 가능하고 볼록하므로 점 $x^*$가 최적일 필요충분조건은 $\nabla f(x^*) = 0$입니다.

알고리즘 프레임워크

수치적 해법은 최소화 수열: 점들의 수열 $x^{(0)}, x^{(1)}, \dots \in \text{dom } f$로, $k \to \infty$일 때 $f(x^{(k)}) \to p^*$가 됩니다. 각 단계에서는 $\Delta x$를 하강 방향으로 하여 $x^{(k+1)} = x^{(k)} + t^{(k)}\Delta x^{(k)}$로 위치를 갱신합니다.

초기화 및 수렴

이 장에서 설명한 방법들은 적절한 시작점 $x^{(0)}$을 필요로 합니다. 시작점은 $\text{dom } f$에 있어야 하며, 추가적으로 하위레벨 집합 $S = \{x \in \text{dom } f \mid f(x) \le f(x^{(0)})\}$이 닫혀 있어야 합니다. 이는 수열이 헤시안이 유용한 정보를 제공하는 잘 정의된 영역 내에 유지되도록 보장합니다.

하강 방향

가장 단순한 방향은 $\Delta x = -\nabla f(x)$. 그러나 효율성을 고려하려면 일반적인 기하학적 구조를 반영해야 하므로 가장 빠른 하강 방향:

2차 노름: $\|z\|_P = (z^T P z)^{1/2} = \|P^{1/2}z\|_2$입니다.
$L_\infty$ 노름: $\Delta x_{\text{sd}} = \Delta x_{\text{nsd}} \|\nabla f(x)\|_\infty = - \frac{\partial f(x)}{\partial x_i} e_i$ (좌표 하강법).

이차 모델과 신뢰 영역

뉴턴법은 이차 테일러 근사식을 사용합니다: $$\hat{f}(x+v) = f(x) + \nabla f(x)^T v + \frac{1}{2} v^T \nabla^2 f(x) v$$ 이 이차식은 $v = \Delta x_{nt}$ (뉴턴 단계)일 때 최소화됩니다. 우리는 신뢰 영역: 집합 $\{v \mid \|v\|_2 \le \gamma\}$. 파라미터 $\gamma$는 이차 모델에 대한 우리의 확신을 반영합니다. 모델이 정확할 경우, 방향은 $v = L^{-T}w = -L^{-T}L^{-1}P^T g$ KKT 시스템에서 구합니다.

🎯 수렴의 핵심 원리

효율성은 오차 $f(x^{(k)}) - p^*$가 사라지는 속도로 측정됩니다. 강력 볼록 함수의 경우, 오차 $f(x^{(k)}) - p^*$는 지수급수 이상의 속도로 0으로 수렴합니다. 반복 수치해법의 맥락에서 이는 선형 수렴이라고 불립니다.

부적절성 경계: $p^* \geq f(x) + \lambda(x) + \log(1 - \lambda(x))$, $\lambda(x) < 1$일 때 유효합니다.
자기일관성의 합: $f_1, f_2$가 자기일관적이라면 $f_1 + f_2$도 자기일관적입니다.
헤시안 희소성: 효율성이 향상되는 조건은 헤시안 밴드 구조 조건: $|i-j| > k$인 경우 $\nabla^2 f(x)_{ij} = 0$ 성립할 때입니다.

질문 1

미분 가능한 볼록 함수의 전역 최소값인 $x^*$에 대해 필수적이고 충분한 조건은 무엇입니까?

$∇² f(x*) ≽ 0$

$∇ f(x*) = 0$

하위레벨 집합 $S$는 닫혀 있다

$f(x*) = p^*$

질문 2

좌표 변환(선형 불변성)을 적용했을 때 뉴턴법은 어떻게 되나요?

최적점까지의 경로가 크게 변화한다

알고리즘이 선형 수렴만 되게 된다

방법은 선형 좌표 변환에 독립적이다

헤시안이 특이하게 된다

질문 3

부적절성 경계 $p^* \geq f(x) + \lambda(x) + \log(1 - \lambda(x))$가 보장되어 유효해지는 경우는 언제입니까?

$\lambda(x) < 1$일 때만

모든 $x \in \text{dom } f$에 대해

2차 함수에 대해서만

헤시안이 대각행렬일 때

질문 4

$f_1$와 $f_2$가 자기일관적일 때, 다음 중 어떤 것이 또한 자기일관적인가요?

$f_1 \cdot f_2$

$f_1 / f_2$

$f_1 + f_2$

$f_1 - f_2$

질문 5

반복 방법에서 선형 수렴의 정의적 특징은 무엇입니까?

오차가 정확히 $n$단계에서 0이 된다

오차는 지수급수 이상의 속도로 0으로 수렴한다

헤시안이 일정하다

단계 크기 $t$는 항상 1이다